作者|薛良Neil
邮箱|neilshen@pingwest.com时隔仅仅四个月,智谱大模型再度升级。在沈阳举办的2023中国计算机大会CNCC2023上,智谱介绍了新一代ChatGLM3大模型。根据智谱官方的表述,尽管新的大模型名字中带有Chat,但实际上这是一个全新版本的基座模型,它的完全版和上一代一样拥有1300亿参数。这次的升级除了常规的性能部分外,智谱还特别提到了几项新能力,用智谱 CEO 的话说,这是“瞄向 GPT-4V的技术升级”。比如ChatGLM3拥有强化代码分析Advanced Data Analysis能力,这类似于OpenAI推出的 Code Interpreter功能。再比如 WebGLM 赋予了新大模型搜索增强能力,换而言之大模型可以从互联网上实时获取最新的内容。在智谱发布现场的演示中,大模型成功反馈了有关神舟十七号发射的最新消息。这些新增功能和强化了的多模态理解能力 CogVLM (智谱宣称,CogVLM的中文图文理解能力取得了接近GPT-4V的水平)一起,结合智谱自研的 AgentTuning 技术,让面向 C 端的智谱清言能力大大增强,现在用户仅仅通过自然语言交互就能让它处理数据、生成图表、分析代码。事实上,接入全新的ChatGLM3后,智谱清言将成为国内首款拥有这些能力的对话式人工智能产品。在性能方面,ChatGLM3在44个中英文公开数据集测试中排名国内同尺寸模型首位,MMLU 提升 36%,而OpenAI针对数学领域开发的数据集GSM8K,ChatGLM3的表现相比ChatGLM2更提升超过179%。另一个值得一提的重点是,这次智谱还专门推出了针对边缘设备的端测模型ChatGLM3-1.5B 和 ChatGLM3-3B,它能够在手机和车载平台,甚至移动端 CPU 上运行,速度可达20 token/s。总的来看,ChatGLM3的升级呈现出两个特点,一个是全模型布局正逐渐成型。这指的不仅是从基座模型衍生出来的各种尺寸的适应各种不同场景的模型,还包括了各种能力的加成,包括跨模态能力、AI Agent、代码生成以及强化搜索能力。基于这些能力的智谱清言逐渐成为国内市场少见的“完全体”版本对话AI 产品。另一个特点则是这种能力跃升的速度。张鹏在采访时透露了智谱的技术升级路线图,其时间节点几乎是以三个月为一个拐点的,换而言之GLM大模型的下一次升级就在今年底明年初。智谱在提升基础模型能力的道路上继续狂奔。可以说,不管从融资规模(智谱在10月初宣布今年完成了高达25亿人民币的融资)还是技术迭代速度上看,智谱都是2023年下半年大模型赛道中为数不多的亮点公司,显然,这将加速冲击业已白热化的国内大模型市场竞争。为此我们一对一对话了智谱AI CEO张鹏,在访谈中他不仅论及了这次模型技术升级本身,更少有地坦率分享了对大模型技术路线、市场竞争以及国产芯片替代问题的看法。这让我们有机会深入了解这家风格低调到略显神秘的明星公司究竟在想些什么,某种程度上,这些想法代表了百模大战未来可能的走向。ChatGLM3是一次比较大的技术升级,它的幅度比一代升级到二代时更大。在性能、技术和效率方面都有亮点。特别是我们对一些前沿技术热点的布局,比如AI Agent 智能体能力相比上一代提升超过 1000%,再比如我们新的边缘侧模型,虽然尺寸很小,但在公开 benchmark 上已经与上一代我们最受欢迎的 6B 尺寸模型性能接近了。问:在国产芯片适配方面,ChatGLM3有什么提升?从二代到三代这个过渡过程中我们充分地适配了国产化的芯片。实际上从自2022年初我们的模型已经支持在国产芯片上训练和推理了,新模型目前更是支持十多种国产硬件生态。问:刚才提到了AI Agent 能力的大幅提升,智谱对于整个AI Agent 技术路线发展和未来产品形态是一个什么样的看法?AI Agent是整个大模型技术体系里面非常重要、关键的一环,但它并不是一个完全独立的事情,AI Agent 的应用可以是比较广泛的,我们期待它能够去解决更复杂的问题,比如把理解、规划、执行以及自我调整这些能力模型的基本能力、原子化的一些能力结合起来,最终去解决一些比较复杂的问题,这是我们对于Agent的期待,本质上它还是在挖掘大模型本身的潜力 。Agent能力的提升会让plug-in外接模型能力这方面的粘合度更强,它可能会作为一种增强能力渗透到各类型产品中去。我个人感觉它可能不会是一个完全独立的产品,而是在场景中不必产生多轮交互就能应对复杂需求。问:这次升级之后,智谱的产品布局轮廓已经比较清晰了。除了基础模型外,还有跨模态模型、代码模型等等。这种模型矩阵看上去有点类似OpenAI的产品布局。我们的目标和它们非常的一致,就是AGI(通用人工智能)。通往AGI是要结合一些关键能力的,除了基础模型能力之外还有跨模态能力、动态知识获取能力包括AI Agent能力也是我们认为必须的。虽然模型产品很多,甚至有些看上去是互相独立的,但本质上它们会最终回归到通用基座模型上去,提升基座模型本身的能力和水平,这是我们的最终目标。问:说到了基础模型能力,请你评价一下智谱目前在基础模型领域处于一个是什么样的位置?这个问题不太好回答,挺难的(笑)。最近频繁有许多厂商开发布会,宣布自己的产品对标这个或那个。对智谱来说,我们对标的始终是国际上最先进的水平,我们的模型和世界最顶尖水平,像GPT4,还有GPT4V相比是一个什么样的能力?我想第一个,在跨模态能力上,我们最近提出的CogVLM已经可以在跨模态理解、图文方面能够和GPT4或GPT4V进行一定的对比了,这个目前在国内来说还是比较领先的。第二个,我们在智谱清言产品中加入了WebGLM模型,这让我们的产品获得了与ChatGPT4 browse with Bing类似的能力,也就是通过搜索引擎来获取实时数据,搜索增强的能力。第三个是我们的Advance Data Analysis也就是代码增强能力,它已经同样加入到了智谱清言中,这同样是国内产品首次。问:有关垂直大模型的讨论非常多,但我们看到像智谱以及许多清华系大模型公司在内,有一个很有意思的现象,就是大家几乎都不怎么谈论垂直大模型。智谱是怎么看待垂直大模型的?我觉得你说了一个非常好的问题,不过所谓清华系的共同判断这个我没有注意到,但我想大家的认知相对比较默契本质原因可能是作为最早开始做大模型的这波人,我们都是从模型本身底层能力构建这样的基础工作开始做起的,因此可能我们对大模型这件事的认知更深。我们不是单纯从某一个行业或者应用的角度看这件事的,我们更多的是站在技术的角度。也就是说,大模型本质它驱动这个时代的能力到底是什么?我想首先是泛化能力,其次还有跨模态能力,这才是它的革命性所在,这些能力让它具备了改变应用形态、改变行业生态的可能性。有些人说,所谓垂直模型、行业模型不需要具备别的行业的知识或者通用知识,但我这里要反问一下,一个行业顶尖专家,或者行业里面比较优秀的具备行业知识的人,他有没有可能完全不具备任何通用知识?实际上很多时候这个因果关系会被误导或者被大家所忽视。提升通用模型能力和提升行业能力不是对立的,而是互相助力的。我不是说行业模型不好,我们只是没有去特别强调这件事情。我们认为行业模型最靠谱的方式,或者说最佳的方式,还是站在通用的基座模型基础之上。基础模型能力强了,第一,行业模型的能力起点就会更高。第二,构建行业模型所需要的成本投入可能相对更少,因为基座模型能力足够强,行业知识输入、微调的过程,以及对数据量甚至算力的需求就会少一些,这样你的成本就更低一些,周期也会更短一些。第三,由于通用能力更好,其实你在专业场景也会有更好的表现。这个道理很简单,比如客服场景,你能保证用户的问题一定是行业性的专业知识吗?过去我们采用所谓知识图谱的技术来应对客服这样的场景,但真正用起来总是会碰到一些边界问题,或者叫黑洞效应,就是说客服的行业知识很全,但遇到基本通用知识时服务就直接挂掉了,这是上一代技术的局限性,因为你的知识图谱其实只覆盖了行业知识,但所谓行业知识和通用知识之间它是没有特别明显的边界的,你也无法预测用户究竟会问些什么。因此最终还是要回归到提升基础模型能力上来,这也是智谱一直在做的事。问:除了垂直大模型之外,另一个比较火的话题是应用。智谱对大模型的应用是怎么看的?应用这一块我们的策略还是比较明确的,我们的重点是着力提升基础模型能力,因此在应用部分我们更多想要打造一种生态去赋能我们的合作伙伴,包括应用开发伙伴和行业客户,帮助他们去构建行业模型、行业能力,打造行业应用。问:提到生态就不得不说开源和商业化的问题,智谱在这两方面目前处于什么样的进展。开源方面智谱肯定是在国内走在前列的一家了。我们的很多模型都是以开源先行的方式在社区率先公开的。我们6B的开源模型在全世界的下载量已经超过了1000万次,开源社区的广泛参与实际上对我们的商业化产生了非常重要的推动和促进作用。客户可以从开源版本尝试我们的服务,而当他们想要更成熟的技术方案、以及更安全、完整的体验的的时候,则可以选择我们商业化版本。智谱过去很少公开说我们的商业化成果,我们的客户遍布在金融、政务、教育,以及互联网领域,可以透露的是目前为止智谱整个大模型相关收入一直在增长。问:百模大战引发的激烈竞争中,有一种论点是,市场其实不需要那么多的基础模型,换而言之百模大战将是非常残酷地淘汰赛。智谱对此有什么看法?怎么看待目前这种高度竞争的市场格局?对于通用的基座模型来说,市场可能确实不需要那么多,但目前看也很难说最后只会留下一个,因此最大的可能性是有几个基础模型并存,它们有各自的特点和优势。归根结底,大模型是一个技术驱动的领域,我们的优势来自我们对技术的认知和本身的科研实力,它们都是在不断提升的。另外,智谱很长时间以来的商业化经验也给我们信心,智谱采用的是以toB为主,toC为辅的策略,这符合我们这个团队本身的基因和过去的经验。问:最后一个问题,对于算力卡脖子这件事,智谱是怎么看的?算力肯定是一个制约我们很重要的因素。情况非常复杂,变化很快,影响也很大。我们其实从最早的GLM130B模型开始就大力推进国产化芯片适配。目前智谱大模型已经和十多家国产芯片完成了适配。现在的情况是,少数个别国产厂家的产品,在经过一些深入调优之后可以达到一个可堪与外国产品进行较量的水平,但必须承认,想要大规模地解决这件事,还需要一些时间。主要是在在资源配置集中优化使用上,还需要跟各方进行协同,另外在比如算力网络、超算互联这样的新的解决方案领域,我们也还有很多研究工作需要推进。